KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了 只用 1.5% 的内存预算,性能就能超越使用完整 KV cache 的模型,这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。 模型 进化算法 kv cache cache预算 2025-09-15 10:15 2